Generated texts from large pretrained language models have been shown to exhibit a variety of harmful, human-like biases about various demographics. These findings prompted large efforts aiming to understand and measure such effects, with the goal of providing benchmarks that can guide the development of techniques mitigating these stereotypical associations. However, as recent research has pointed out, the current benchmarks lack a robust experimental setup, consequently hindering the inference of meaningful conclusions from their evaluation metrics. In this paper, we extend these arguments and demonstrate that existing techniques and benchmarks aiming to measure stereotypes tend to be inaccurate and consist of a high degree of experimental noise that severely limits the knowledge we can gain from benchmarking language models based on them. Accordingly, we propose a new framework for robustly measuring and quantifying biases exhibited by generative language models. Finally, we use this framework to investigate GPT-3's occupational gender bias and propose prompting techniques for mitigating these biases without the need for fine-tuning.
translated by 谷歌翻译
现有的视频理解数据集主要集中在人类的互动上,几乎没有关注“在野外”设置,在户外录制了视频。我们提出了Wildqa,这是一个视频理解外部设置中录制的视频的数据集。除了视频问答(视频质量质量检查)外,我们还介绍了确定给定问答(视频证据选择)视觉支持的新任务。通过使用各种基线模型的评估,我们表明Wildqa对愿景和语言研究社区构成了新的挑战。该数据集可在https://lit.eecs.umich.edu/wildqa/上找到。
translated by 谷歌翻译
19009年的大流行破坏了世界上每个人的生活。在这项工作中,我们表征了在疫苗可用性之前,在大流行期间,美国112个城市的主观福祉模式,如与城市相对应的亚列表所示。我们使用积极和负面影响量化主观健康。然后,我们通过将社区观察到的健康与预期的健康进行比较,衡量大流行的影响,如大流行前的时间序列模型所预测的那样。我们表明,语言反映的一般社区特征可以预测社区的能力。我们预测大流行将如何基于正常时间\ textit {之前的语言和互动特征{}大流行的语言和互动特征影响每个社区的福祉。我们发现,具有与更紧密联系的用户相对应的互动特征的社区,并且更高的参与度受到显着影响。值得注意的是,我们发现更多谈论通常经验丰富的社会关系的社区,例如朋友,家人和隶属关系,实际上更有可能受到影响。此外,我们还使用相同的功能来预测大流行初次发作后每个社区将恢复的速度。我们同样发现,更多地谈论家庭,隶属关系和确定为团体一部分的社区的康复较慢。
translated by 谷歌翻译
我们使用释义作为独特的数据来源来分析上下文化的嵌入,特别关注BERT。由于释义自然编码一致的单词和短语语义,因此它们提供了一种独特的镜头来研究嵌入的特性。使用释义数据库的比对,我们在释义和短语表示中研究单词。我们发现,上下文嵌入有效地处理多义单词,但在许多情况下给出了同义词,具有令人惊讶的不同表示。我们证实了先前的发现,即Bert对单词顺序敏感,但是就BERT层的情境化水平而言,发现与先前工作的模式略有不同。
translated by 谷歌翻译
Reasoning is central to human intelligence. However, fallacious arguments are common, and some exacerbate problems such as spreading misinformation about climate change. In this paper, we propose the task of logical fallacy detection, and provide a new dataset (Logic) of logical fallacies generally found in text, together with an additional challenge set for detecting logical fallacies in climate change claims (LogicClimate). Detecting logical fallacies is a hard problem as the model must understand the underlying logical structure of the argument. We find that existing pretrained large language models perform poorly on this task. In contrast, we show that a simple structure-aware classifier outperforms the best language model by 5.46% on Logic and 4.51% on LogicClimate. We encourage future work to explore this task as (a) it can serve as a new reasoning challenge for language models, and (b) it can have potential applications in tackling the spread of misinformation. Our dataset and code are available at https://github.com/causalNLP/logical-fallacy
translated by 谷歌翻译
新闻事实检查的一个重要挑战是对现有事实核对的有效传播。反过来,这需要可靠的方法来检测先前事实检查的主张。在本文中,我们专注于自动寻找在社交媒体帖子(推文)中提出的索赔的现有事实检查。我们使用多语言变压器模型(例如XLM-Roberta和多语言嵌入者,例如Labse and Sbert)进行单语(仅英语),多语言(西班牙语,葡萄牙语)和跨语性(印度英语)设置进行分类和检索实验。我们提供了四个语言对的“匹配”分类(平均准确性86%)的有希望的结果。我们还发现,在单语实验中,BM25基线的表现胜过或与最先进的多语言嵌入模型相提并论。我们在以不同的语言来解决此问题的同时,强调和讨论NLP挑战,并介绍了一个新颖的事实检查数据集和相应的推文,以供将来的研究。
translated by 谷歌翻译
写作时,一个人可能需要从听众那里预测问题,但是不同的社会团体可能会提出非常不同的问题。如果有人要解决他们想解决的问题,那么域专家会问什么样的后续问题,作者可以通过重写其原始帖子来更好地满足专家的信息需求?在本文中,我们探讨了社会意识到的问题产生的任务。我们从社交媒体中收集了一系列问题和帖子,包括有关问答者社交群体的背景信息。我们发现,专家和新手等不同的社会群体始终提出不同类型的问题。我们训练几种结合社会信息的文本生成模型,我们发现当不同的社交群体彼此提出高度不同的问题时,离散的社会代表模型优于仅文本模型。我们的工作为开发文本生成模型提供了一个框架,可以帮助作家预测高度不同的社会群体的信息期望。
translated by 谷歌翻译
文本样式传输是自然语言生成中的重要任务,旨在控制生成的文本中的某些属性,例如礼貌,情感,幽默和许多其他特性。它在自然语言处理领域拥有悠久的历史,最近由于深神经模型带来的有希望的性能而重大关注。在本文中,我们对神经文本转移的研究进行了系统调查,自2017年首次神经文本转移工作以来跨越100多个代表文章。我们讨论了任务制定,现有数据集和子任务,评估,以及丰富的方法在存在并行和非平行数据存在下。我们还提供关于这项任务未来发展的各种重要主题的讨论。我们的策据纸张列表在https://github.com/zhijing-jin/text_style_transfer_survey
translated by 谷歌翻译
相机本地化是许多机器人应用的根本和关键问题。近年来,利用基于相机的本地化的深度学习已成为一种流行的研究方向。然而,它们缺乏对大域移位的鲁棒性,这可能是由训练和测试数据集之间的季节性或照明变化引起的。数据增强是一种解决此问题的有吸引力的方法,因为它不需要提供额外的数据。然而,现有的增强方法盲目地扰乱了所有像素,因此无法实现令人满意的性能。为了克服这个问题,我们提出了一个旨在专注于扰动图像的几何信息的系统的系统。因此,它学会生成仍然能够困惑网络的最小图像扰动。我们表明,当这些例子用作增强时,它大大提高了鲁棒性。我们表明,我们的方法优于先前的增强技术,并且在在“看不见”挑战性天气条件上测试时,比SOTA定位模型(例如,ATLOC和MAPNET)高达两倍的准确性。
translated by 谷歌翻译